事件 相关 电位 研究 的 统计 检验 力 分 析 : 方法 及 影响 因素 
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摘 要 研究 结果 的 稳健 性 和 可 重复 性 对 于 科学 研究 的 发 展 至 关 重 要 ， 但 在 事件 相关 电位 研 
完 文 献 却 极 少见 到 完整 的 统计 检验 力 报告 。 本 文 主要 是 通过 对 已 有 研究 的 梳理 总 结 ， 从 而 
介绍 事件 相关 电位 研究 中 统计 检验 力 分 析 方 法 、 应 用 实例 以 及 实验 设计 、 效 应 幅 值 、 样 本 
量 以 及 试 次 数量 等 影响 因素 ， 以 期 为 研究 者 设计 和 /或 预 注册 研究 方案 等 阶段 计算 和 报告 事 
件 相 关 电 位 研究 中 的 统计 检验 力 提供 参考 。 

关键 词 脑 电 事件 相关 电位 统计 检验 力 样本 量 试 次 数量 


© 1 引言 
= 在 心理 学 研究 可 重复 性 危机 背景 下 ( 梳 丹 丹 等 , 2016; 胡 传 鹏 等 , 2016)， 研 究 结果 的 稳 
© 健 性 Crobust) 和 可 重复 性 (reproducibility) 对 于 心理 学 研究 的 发 展 至 关 重 要 。 研 究 发 现 ， 统 
H 计 检 验 力 (statistical power) 决定 了 研究 结果 的 置信 水 平 ， 是 衡量 其 研究 结果 可 靠 性 和 研究 
= 可 重复 性 的 关键 指标 之 一 (Fraley & Vazire, 2014; Schweizer & Furley, 2016)， 在 研究 结果 的 稳 
健 性 和 可 重复 性 中 起 着 决定 性 作用 。 统 计 检 验 力 是 指 当 零 假设 Cull hypothesis) 为 假 时 ， 
统计 测验 正确 拒绝 零 假 设 的 概率 ， 一 般 用 1-B 表示， 通常 设置 为 0.8(Cohen, 1988, 2013). 
= 与 统计 检验 力 高 的 研究 相 比 ， 统 计 检验 力 低 的 研究 会 导致 更 多 的 假 阳性 〈Type-Ierror，I 类 
a 错误 ) 和 假 阴性 (Type-I error， 开 类 错误 ) 结果 。 然 而 在 过 去 的 60 年 中 ， 科 学 研究 领域 的 
CC 统计 检验 力 约 为 24% (Smaldino & McElreath, 2016)。 其 中 ， 神 经 科学 研究 领域 的 统计 检验 
力 在 8%~30% 范围 之 间 (Button et al., 2013)， 远 远 低 于 统计 检验 力 要 达到 至 少 80% 的 理想 
水 平 。 因 此 ， 研 究 者 越 来 越 担 心 由 于 统计 检验 力 不 足 ， 可 能 导致 了 大 多 数 科学 研究 的 结 
是 虚假 的 (loannidis, 2005; Munafo et al., 2017)。 

脑 电 技术 是 认 知 神经 科学 领域 中 极为 重要 和 被 研究 者 广泛 使 用 的 研究 工具 之 一 。 但 脑 
电 研 究 文 献 却 极 少见 到 完整 的 统计 检验 力 报 告 ，Clayson 等 人 2019) 研究 发 现 仅 仅 只 有 15% 
的 脑 电 研究 得 到 了 合适 的 统计 检验 力 (Clayson et al., 2019)。 一 方面 可 能 与 认 知 神经 科学 领域 
(特别 是 电 生 理 技术 领域 传统 以 来 的 常用 研究 范式 有 关 。 目 前 ， 心 理学 的 很 多 研究 研究 
(如 : 事件 相关 电位 研究 ) 范式 提倡 反复 测量 被 试 在 特定 条 件 下 的 反应 ， 即 : 对 同一 刺激 
类 型 的 反应 进行 多 个 试 次 的 测量 ， 随 后 对 多 次 测量 结果 进行 平均 ， 以 期 达到 对 被 试 真实 反 
应 地 更 精确 估计 。 另 一 方面 也 可 能 与 脑 电 研究 复杂 的 数据 结构 有 关 ， 例 如 ， 原 始 的 单 通道 
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脑 电 信号 是 三 维 数据 ， 有 具有 频率 (Frequency), IWA (Time) 和 电压 振幅 (Amplitude) 三 
个 维度 ; 研究 者 可 能 会 对 在 长 频率 、 特 定时 间 上 脑 电 数据 感 兴趣 〈 时 域 分 析 )、 也 可 能 对 特 
定 频率 ， 长 时 间 段 的 脑 电 数据 感 兴趣 〈 频 域 分 析 )、 或 是 对 两 者 同样 感 兴趣 〈 时 频 分 析 ) 等 ， 
从 而 导致 传统 的 统计 检验 力 分 析 方 法 难以 准确 适用 。 在 本 文中 ， 我 们 将 仅 探 讨 时 域 分 析 中 
典型 的 研究 方法 : 事件 相关 电位 (Event-related potential, ERP). 
研究 发 现 ，ERP 研究 中 的 统计 检验 力 会 受到 实验 设计 (study design)、 效 应 幅 值 
(effect magnitude )、 样 本 量 (sample size) 以 及 试 次 数量 (number of trials〉 等 因素 的 影响 
(Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam 
et al., 2021)。 其 中 ， 实 验 设 计 特 指 实施 实验 处 理 的 一 个 计划 方案 以 及 与 计划 方案 有 关 的 统 
计 分 析 ; 效应 幅 值 是 指 以 微 伏 为 单位 效应 的 绝对 值 大 小 ; 样本 量 是 指 参与 研究 的 人 员 数 量 ; 
试 次 数量 是 指 研究 者 能 够 采集 到 符合 研究 需求 数据 的 相对 较 少 试 次 数 。 
样本 量 和 试 次 数量 在 脑 电 实验 设计 时 起 着 重要 的 作用 。Clayson A (2019) 指出 在 事 
件 相 关 电 位 研究 中 通过 对 样本 量 和 试 次 数量 进行 先 验 分 析 ， 可 以 在 一 定 程度 上 确保 适宜 的 
统计 检验 力 和 实验 结果 的 稳健 性 ， 从 而 降低 研究 的 可 重复 性 危机 。 然 而 已 有 的 研究 较 多 关 
主 样本 量 对 统计 检验 力 的 影响 ， 而 忽略 了 试 次 数量 的 影响 。 同 时 已 有 的 大 多 数 研究 者 往往 
使 用 经 验 法 则 而 非 遵 循 固定 标准 来 确定 研究 中 的 试 次 数量 。 因 此 ， 研 究 者 应 当 遵 循 什么 样 
的 标准 来 决定 需要 多 少 名 被 试 〈 样 本 量 )， 以 及 每 个 被 试 完 成 多 少 个 试 次 〈 试 次 数量 ) 目前 
仍 不 明确 。 试 次 数量 可 以 类 比 成 调查 科学 中 的 量 表 题目 数 〈 基 于 当下 目前 仍然 流行 的 研究 
范式 经 典 测量 理论 )， 基 于 结构 方程 模型 和 心理 测量 学 的 大 量 研究 或 范式 已 经 倡议 在 研究 中 
要 使 用 足够 数量 的 题 项 ， 从 而 提高 测量 的 统计 检验 力 (McQuitty, 2004; Zhang & Stone, 
2008)。 人 然而， 事件 相关 电位 研究 则 没有 一 个 明确 的 公式 或 计算 方法 ， 仪 有 模糊 的 ， 且 不 同 
研究 组 织 /团体 有 着 不 同 的 经 验 标 准 。 同 时 ， 也 较 少 有 研究 者 关注 事件 相关 电位 研究 中 实验 
< 设计 和 效应 幅 值 对 统计 检验 力 的 影响 。 比 如 : 在 进行 被 试 内 或 被 试 间 实验 设计 时 ， 确 定 能 
稳健 地 分 离 出 每 个 实验 处 理 水 平 之 间 反 应 差异 的 样本 量 ， 以 及 实验 处 理 水 平 之 间 效 应 幅 
稳定 可 信 的 试 次 数量 。 此 外 ， 研 究 人 员 经 常 需 要 在 样本 量 和 试 次 数量 之 间 进 行 权 衡 。 有 具体 
来 说 ， 就 是 由 于 时 间 、 科 研 经 费 等 客观 因素 的 影响 ， 研 究 人 员 经 常 需要 在 增加 样本 量 减 少 
试 次 数量 或 者 减少 样本 量 增 加 试 次 数量 之 间 进 行 选择 。 然 而 这 种 权衡 的 决策 标准 以 及 这 种 
权衡 对 统计 检验 力 的 影响 尚 不 明确 。 因 此 ， 如 果 不 系 统 地 研究 样本 量 、 试 次 数 、 效 应 幅 值 
以 及 实验 设计 等 因素 如 何 影响 事件 相关 电位 研究 中 的 统计 检验 力 ， 就 很 难得 出 稳健 可 信 的 
结论 。 
值得 注意 的 是 ， 事 件 相关 电位 研究 领域 的 研究 者 似乎 没有 完全 适应 或 认同 在 研究 中 需 
要 完整 报告 统计 检验 力 的 这 种 做 法 ， 目 前 仍 有 很 多 研究 者 在 进行 事件 相关 电位 研究 时 并 没 
有 提 及 统计 检验 力 的 有 关内 容 。Larson 和 Carbine (2017) 发 现 大 多 数 事件 相关 电位 研究 没 
有 报告 统计 检验 力 的 先 验 计算 指标 或 者 需要 其 他 人 自行 计算 所 需 的 信息 。 近 年 来 ， 研 究 者 
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开始 以 事件 相关 电位 研究 中 试 次 数量 确定 依据 为 切入 点 ， 通 过 模拟 数据 的 方式 ， 系 统 地 探 
讨 实验 设计 、 效 应 幅 值 、 样 本 量 以 及 试 次 数量 等 因素 对 统计 检验 力 的 影响 Boudewyn et al., 
2018; Gibney et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam et al., 2021). A 
文 主要 是 通过 对 已 有 研究 的 梳理 总 结 ， 从 而 介绍 事件 相关 电位 研究 中 统计 检验 力 分 析 方 
法 、 应 用 实例 以 及 影响 因素 等 。 
2 事件 相关 电位 研究 中 统计 检验 力 分 析 方 法 及 应 用 实例 
2.1 数据 驱动 法 (data-driven method) 

数据 驱动 法 的 目的 是 确定 在 事件 相关 电位 研究 中 获得 特定 稳健 ERP 成 分 所 需 的 最 少 试 
次 数量 。 该 方法 的 具体 步骤 是 : 将 已 经 获得 稳健 ERP 成 分 的 试 次 数量 作为 总 体 ， 随 后 从 总 
体 中 抽取 一 定数 量 的 试 次 作为 样本 ， 随 后 对 样本 进行 平均 ， 并 将 平均 样本 数据 后 ERP 成 分 
与 总 体 样本 的 ERP 成 分 进行 对 比 。 不 断 重复 上 述 过 程 ， 直 到 确定 在 样本 中 得 到 与 总 体 样本 
相当 的 ERP 成 分 ， 并 确定 样本 的 试 次 数量 ， 该 试 次 数量 大 小 即 为 获得 该 ERP 成 分 所 需 的 
最 少 试 次 数量 。 总 体 ERP 成 分 与 样本 ERP 成 分 的 相似 性 通过 相关 系数 、 内 部 一 致 性 系数 
(Olvet & Hajcak, 2009; Thigpen et al., 2017)、 重 测 信 和 度 (Huffmeijer et al., 2014; Segalowitz & 
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Barnes, 1993) 以 及 等 值 性 (Marco-Pallares et al., 2011; Pontifex et al., 2010) 等 指标 进行 评估 。 
数据 驱动 法 能 确定 一 个 稳健 的 ERP 成 分 以 及 获得 它 所 需 的 最 低 试 次 数量 ， 但 其 不 适用 于 确 
定 在 不 同 实验 处 理 水 平 或 被 试 间 等 的 ERP 成 分 是 否 有 差异 时 的 试 次 数量 。 

在 应 用 实例 方面 ， 数 据 驱 动 法 被 运用 于 ERP 研究 领域 中 确定 error-related negativity 
(ERN), error positivity (Pe), N100, N200, vertex positive potential (VPP)/N170, mismatch 


negativity (MMN), feedback-related negativity (FRN), late positive potential (LPP), and P300 等 


ERP 成 分 的 试 次 数量 (Cohen & Polich, 1997; Duncan et al., 2009; Fischer et al., 2017; 
Huffmeijer et al., 2014; Larson et al., 2010; Marco-Pallares et al., 2011; Olvet & Hajcak, 2009; 
Pontifex et al., 2010; Rietdijk et al., 2014; Segalowitz & Barnes, 1993; Steele et al., 2016; 
Thigpen et al., 2017). 
2.2 蒙特 卡 洛 模拟 (Monte Carlo analyses) 

蒙特 卡 洛 模拟 的 主要 原理 是 通过 指定 虚拟 总 体 〈 分 布 ) 以 生成 虚拟 样本 《抽样 )。 有 具体 
而 言 ， 通 过 从 虚拟 总 体 〈 分 布 ) 中 对 被 试 数 量 和 试 次 数量 进行 重 抽 样 ， 从 而 模拟 具有 不 同 
试 次 数量 、 样 本 量 、 效 应 幅 值 以 及 实验 设计 的 实验 。 在 事件 相关 电位 研究 的 蒙特 卡 洛 模拟 
中 ， 研 究 者 使 用 采集 到 的 真实 脑 电 数据 作为 指定 总 体 。 并 添加 了 人 工效 应 (artificial 
effects)， 从 而 为 被 试 内 和 被 试 间 的 分 析 获 取 真 实 的 效应 幅 值 (Kiesel et al., 2008; Smulders, 
2010; Ulrich & Miller, 2001)。 相 比 于 数据 驱动 法 ， 蒙 特 卡 洛 模拟 较为 理想 ， 因 为 其 结合 了 
真实 的 脑 电 数据 《噪音 的 真实 性 ) 和 人 工 诱 发 的 实验 效应 〈 结 果 的 真实 )。 通 过 对 每 个 给 定 
参数 集 模拟 1000 次 实验 ， 研 究 者 能 够 估计 每 个 参数 组 合 在 a=0.05 水 平 下 获得 显著 统计 结 
果 的 概率 〈 即 : 统计 检验 力 )。 随 后 ， 研 究 者 使 用 1 检验 确定 既定 参数 组 合 模拟 生成 的 ERP 


成 分 是 否 在 条 件 之 间 〔 配 对 样本 1 检验 ) 或 组 别 之 间 (独立 样 本 1 检验 ) 是 否 有 显著 差异 。 

在 应 用 实例 上 ， 蒙 特 卡 洛 模拟 分 析 被 运用 于 事件 相关 电位 研究 领域 中 LRP, ERN, 
N170、MMN、P3、N2pc、N400、CDA、N1、Tb、P2 等 ERP 成 分 的 统计 检验 力 分 析 
(Boudewyn et al., 2018; Gibney et al., 2020; Hall et al., 2023; Jensen & MacDonald, 2023; Ngiam 
etal., 2021)。 同 时 ， 为 了 能 让 研究 者 在 实际 研究 中 应 用 该 方法 ，Hall “FA (2023) 提供 了 
在 线程 序 Erp Power Calculator (访问 链接 为 : 
https://bradleynjack.shinyapps.io/ErpPowerCalculator/)， 事 件 相 关 电 位 研究 中 听觉 领域 的 研究 
者 可 以 通过 选择 特定 的 ERP 成 分 (N1/Tb/P2)、 试 次 数量 (20~1000)、 样 本 量 (10~100)、 
效应 幅 值 (0~3 pV)、 实 验 设 计 〔 被 试 内 /被 试 间 )、alpha 水 平 〈0.05/0.01/0.005/0.001) 等 参 
数 来 计算 研究 的 统计 检验 力 。 在 视觉 工作 记忆 领域 ，Ngiam A (2021) 提供 了 在 线程 序 
CDA Power Calculator〈 访 问 链接 为 : https://williamngiam.shinyapps.io/CDAPower/)， 可 以 
通过 选择 感 兴趣 的 效应 (稳健 CDA 成 分 /记忆 负荷 2 vs 4/ 记 忆 负 荷 2 vs 6)， 灵 活 调整 样本 
干净 试 次 数量 、 统 计 检验 力 等 参数 之 间 的 组 合 来 计算 相应 的 指标 。Jensen 和 
T MacDonald (2023) Æ OSF 平 台 《〈 访 问 链接 为 : https:/osfio/wv3da/) 公开 共享 了 基于 ERP 
CORE 数据 集 对 LRP、ERN、N170、MMN、P3、N2pc、N400 七 个 ERP 成 分 通过 动态 组 
合 样本 量 、 试 次 数量 、 效 应 幅 值 以 及 实验 设计 等 参数 模拟 计算 统计 检验 力 的 代码 资源 。 
2.3 功效 等 值 线 图 (Power Contours Plot ) 

功效 等 值 线 图 是 统计 检验 力 的 二 维 平面 表征 ， 是 样本 量 CN) 和 试 次 数量 〈k) 的 联合 
函数 ， 并 可 以 在 其 它 约束 条 件 下 进行 优化 (Baker et al., 2021)。 其 核心 步骤 是 ， 在 给 定 的 统 
计 检 验 力 条 件 下 ， 充 分 考虑 方差 的 影响 ， 动 态 调 整 样 本 量 和 试 次 数量 并 计算 相应 的 统计 检 
验 力 ， 直 到 计算 的 结果 值 符合 预 设 值 。 使 用 功效 等 值 线 图 可 以 在 样本 量 和 试 次 数量 的 权衡 
过 程 中 找到 一 个 决策 边界 的 功率 等 值 线 拐点 ， 从 而 根据 实际 情况 选取 适宜 的 样本 量 和 试 次 
数量 。 但 该 方法 也 有 一 定局 限 性 ， 因 为 在 事件 相关 电位 研究 中 统计 检验 力 不 仅 仅 取决 于 样 
量 和 试 次 数量 ， 也 取决 于 研究 中 特定 脑 电 成 分 在 条 件 间 的 效应 幅 值 (Boudewyn et al., 
2018)。 
在 应 用 实例 上 ， 功 效 等 值 线 图 被 运用 于 事件 相关 电位 研究 领域 中 P100、P200、N600 
等 ERP 成 分 的 样本 量 和 试 次 数量 的 决策 拐点 计算 (Baker et al., 2021)。 同 时 ， 为 了 方便 研究 
者 使 用 该 方法 来 确定 实际 研究 中 的 样本 量 和 试 次 数量 ，Baker A (2021) 等 人 开发 了 在 
线程 序 Power contour estimation (访问 链接 为 : https://shiny.york.ac.uk/powercontours/)， 通 
过 输入 样本 量 、 试 次 数量 、alpha 水 平 、 均 值 差异 、 被 试 内 标准 差 、 被 试 间 标准 差 、 招 募 成 
本 等 参数 来 计算 研究 的 统计 检验 力 ， 以 及 实际 研究 中 样本 量 和 试 次 数量 权衡 的 决策 拐点 。 
3 事件 相关 电位 研究 中 统计 检验 力 分 析 的 影响 因素 

在 事件 相关 电位 研究 中 ， 色 加 平均 (如 : 试 次 数量 等 ) 是 得 到 ERP 成 分 常用 的 分 析 方 
法 之 一 。 在 进行 统计 检验 时 ，GLM (ANOVA) 是 常用 的 统计 分 析 方 法 。 因 此 样本 量 、 试 
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次 数量 、 效 应 幅 值 以 及 实验 设计 等 因素 会 影响 事件 相关 电位 研究 中 的 统计 检验 力 。 
3.1 样本 量 

样本 量 是 统计 检验 力 函 数 的 直接 参数 ， 其 增加 会 显著 提高 研究 统计 检验 力 。 在 ERP W 
究 中 ， 小 样本 量 无 疑 是 损害 统计 检验 力 的 直接 要 素 。 例 如 : Gibney A (2020) 研究 发 
现 ， 在 被 试 间 实 验 设 计 中 ， 若 每 组 样本 量 为 10 人 ， 则 产生 真实 显著 结果 的 可 能 性 极 低 。 总 
的 来 说 ， 与 增加 试 次 数量 相 比 ， 增 加 样本 量 对 统计 能 力 的 影响 要 更 大 。 此 外 ， 尽 管 试 次 数 
量 也 是 影响 统计 检验 力 的 重要 因素 ， 增 加 试 次 数量 可 能 也 会 对 提升 统计 检验 力 有 所 帮助 ， 
但 在 实际 情况 允许 的 条 件 下 ， 优 先 考虑 样本 量 的 增加 可 能 会 是 更 优 的 选择 。 
3.2 试 次 数量 

试 次 数量 对 统计 检验 力 的 影响 取决 于 效应 量 (effect size) 的 变化 。 随 着 试 次 数量 的 增 
加 ， 试 次 间 变 异性 降低 ， 从 而 导致 效应 量 增 加 和 统计 检验 力 提 升 。 研 究 显 示 ， 在 样本 量 不 
充足 且 检 测 效应 量 中 等 的 情况 下 ， 试 次 数量 提高 约 一 倍 左右 能 有 效 地 提升 统计 检验 力 ， 使 
其 达到 合适 的 水 平 (Boudewyn et al., 2018). 
3.3 效应 幅 值 

先前 研究 发 现 ， 效 应 幅 值 较 大 的 ERP 成 分 往往 需要 的 试 次 数量 会 较 少 (Baker et al., 
2021; Boudewyn et al., 2018)。 例 如 : 若 被 试 内 实验 设计 中 条 件 之 间 的 效应 幅 值 很 大 时 ， 样 
本 量 和 试 次 数量 的 变化 对 统计 检验 力 的 影响 较 小 ， 当 效应 幅 值 在 中 等 水 平时 ， 样 本 量 和 试 
次 数量 的 变化 对 统计 检验 力 的 变化 有 很 大 的 影响 ， 此 外 ， 若 试 次 数量 足够 大 ， 在 效应 幅 值 
较 小 时 ， 也 能 够 通过 增加 样本 量 以 达到 足够 的 统计 检验 力 。 
3.4 实验 设计 

研究 发 现 ， 与 被 试 间 实 验 设计 相 比 ， 在 被 试 内 实验 设计 中 ， 试 次 数量 的 变化 会 对 统计 
检验 的 影响 更 大 ， 并 且 在 只 需要 较 少 的 样本 量 和 试 次 数量 就 能 获得 在 特定 效应 大 小 与 被 试 
间 实 验 设 计 相 同 的 统计 检验 力 水 平 。 而 被 试 间 实验 中 ， 样 本 量 的 变化 对 统计 检验 力 的 影响 
更 明显 。 先 前 研究 发 现 ， 在 多 数 情况 下 ， 在 被 试 内 实验 设计 的 数据 模拟 中 ， 将 试 次 数量 加 
倍 可 以 将 统计 检验 力 提 升 至 少 1 倍 ， 而 样本 量 加 倍 的 影响 则 不 明显 。 相 比 之 下 ， 在 被 试 间 
实验 设计 的 数据 模拟 中 ， 样 本 量 加 倍 比 试 次 数量 加 倍 对 统计 检验 力 的 影响 更 明显 。 
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优先 考虑 增加 试 次 数量 ， 在 条 件 多 优先 考虑 增加 样本 量 ， 在 条 件 允许 
许 的 情况 下 ， 也 可 以 增加 样本 量 。 的 情况 下 ， 也 可 以 增加 试 次 数量 。 
+ 在 P3 成 分 上 ， 增 加 试 次 数量 和 样 * 在 N170 和 N2pe 成 分 上 ， 应 该 优先 
本 量 的 考量 应 该 是 一 致 的 。 考虑 增加 样本 量 。 
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多 先 增加 试 次 增加 样本 量 获 得 差异 显 优先 增加 样本 增加 试 次 数量 获得 差异 显 
数量 的 作用 比 著 结 果 的 的 可 能 性 更 大 ， 量 的 作用 比 增 著 结果 的 的 可 能 性 更 大 ， 


赠 加 样本 量 大 。 即使 试 次 数量 没有 变化 。 加 试 次 数量 大 。 即使 样本 量 没有 变化 。 


图 1 被 试 内 实验 设计 和 被 试 间 实验 设计 模拟 结果 的 部 分 关键 内 容 示意 图 。 示 意图 描述 了 现 有 研究 中 统计 检 
验 力 影响 因素 之 间 的 动态 关系 ， 可 以 为 研究 者 提供 基本 指导 ， 帮 助 研究 者 了 解 研究 设计 中 应 该 关注 什么 ， 
从 而 得 到 更 高 的 统计 检验 力 。 请 注意 ， 该 图 描述 了 观察 到 的 具有 更 多 中 等 效应 幅 值 的 关系 。 地 板 效 应 表 
明 ， 如 果 效 应 幅 值 太 小 ， 那 么 增加 样本 量 或 试 次 数量 没有 太 大 作用 。 同 样 ， 天 花 板 效应 表明 ， 样 本 量 和 试 
验 次 数 的 增加 可 能 也 不 会 对 非常 大 的 效应 幅 值 产生 太 大 影响 (尽管 这 种 规模 的 效应 幅 值 在 实际 研究 中 可 能 
不 存在 )。 改 编 自 : (Jensen & MacDonald, 2023) 
4 事件 相关 电位 研究 中 统计 检验 力 分 析 的 挑战 
研究 者 通过 模拟 数据 的 方式 ， 系 统 地 探讨 实验 设计 、 效 应 幅 值 、 样 本 量 以 及 试 次 数量 
等 因素 通过 交互 方式 对 统计 检验 力 产 生 影响 。 但 在 未 来 的 研究 中 还 应 该 关注 : 
关注 研究 中 可 能 出 现 的 天 花 板 效应 〈ceiling effect) 和 地 板 效 应 Cfloor effects)。 先 前 
研究 发 现 ， 统 计 检 验 力 会 随 着 样本 量 和 试 次 数量 的 变化 而 变化 ， 而 当 统 计 检 验 力 出 现 天 花 
板 效应 或 地 板 效应 时 ， 样 本 量 和 试 次 数量 的 变化 并 不 会 对 统计 检验 力 的 影响 就 微乎其微 
Se 


a 


此 外 ， 关 注 事件 相关 电位 研究 中 信 噪 比 〈Signal-Noise Ratio, SNR) 对 统计 检验 力 的 影 
响 。 信 噪 比 是 指 脑 电 数据 中 信号 水 平 与 噪声 水 平 的 比值 。 在 脑 电 数据 中 ， 若 噪声 水 平 增 
加 ， 则 信 噪 比 和 统计 检验 力 都 会 降低 。 然 而 ， 已 有 的 数据 模拟 中 ， 无 法 有 效 的 实际 模拟 出 
每 个 脑 电 数据 中 真实 的 信 噪 比 水 平 。 此 外 ， 事 件 相关 电位 研究 中 的 信 噪 比 会 受到 脑 电 数据 
采集 CU: 不 同 的 采集 环境 和 设备 、 电 阻 水 平等 ) (Kappenman & Luck, 2010; Laszlo et al., 
2014; Luck & Kappenman, 2017; Picton, 2010; Puce & Hämäläinen, 2017)、 处 理 方法 (Clayson 
et al., 2021; Delorme, 2023; Sandre et al., 2020) 以 及 统计 检验 方法 (Luck & Gaspelin, 2017) 的 影 
Ho Luck 和 Gaspelin (2017) 研究 发 现 事件 相关 电位 研究 中 数据 分 析 的 研究 者 自由 度 
《如 : 不 同 的 处 理 与 分 析 管 道 等 ) 可 能 会 导致 假 阳 性 结果 。 因 此 ， 信 噪 比 对 事件 相关 电位 
研究 中 统计 功效 的 影响 是 未 来 研究 探索 的 一 个 重要 方向 。 

同时 ， 需 要 在 更 复杂 的 实验 情境 进一步 验证 。 现 有 的 研究 模拟 了 被 试 内 和 被 试 间 实 验 


设计 中 试 次 数量 、 样 本 量 以 及 效应 幅 值 是 如 何 影响 统计 检验 力 的 ， 但 这 些 已 有 的 结论 是 否 
于 更 复杂 的 实验 设计 (如 : 混合 实验 设计 等 )、 分 析 方 法 〈 如 : 多 因素 分 析 、 大 规模 单 
分 析 、 混 合 线性 模型 等 ) 以 及 不 同 的 样本 群体 、 实 验 刺 激 或 实验 范式 中 ， 仍 需 进一步 
验证 。 

在 进行 结果 推广 时 应 持 一 种 审慎 态度 。 因 为 目前 现 有 的 结果 都 是 在 一 种 模拟 的 理想 状 
态 ， 因 此 它们 可 能 无 法 推广 到 与 模拟 计算 数据 集 显著 不 同 的 情况 。 同 时 ， 虽 然 有 一 些 研究 
者 开发 并 提供 了 统计 检验 力 的 计算 工具 ， 但 其 计算 工具 都 是 针对 事件 相关 电位 研究 中 特定 
的 ERP 成 分 ， 在 未 来 的 研究 中 应 该 开发 一 个 更 具有 广泛 适用 性 的 统计 检验 力 计 算 工 具 。 
5 总 结 

为 了 提升 事件 相关 电位 研究 领域 实验 结果 的 稳健 性 和 可 重复 性 ， 研 究 者 在 设计 和 /或 预 
注册 研究 方案 阶段 ， 需 要 着 重 考量 统计 检验 力 及 实验 设计 、 效 应 幅 值 、 样 本 量 以 及 试 次 数 
量 等 因素 的 影响 ， 从 而 不 断 优化 研究 方案 减少 投 入 在 统计 检验 力 不 足 研究 上 成 本 的 可 能 
性 ;同时 也 能 鼓励 研究 人 员 神 经 科学 研究 报告 完整 的 统计 检验 力 ， 不 断 提 高 科学 研究 的 严 
谨 性 和 可 重复 性 。 值 得 注意 的 是 ， 当 前 结论 来 源 于 数据 模拟 的 理想 状态 ， 研 究 人 员 参 考 时 


需 结合 实际 的 研究 情境 。 
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Abstract 
The robustness and reproducibility of research results are crucial to the development 


of scientific research, but complete statistical testing power reports are rarely seen in 
the event-related potential (ERP) research literature. This article mainly reviews and 
summarizes the existing research, thereby introducing statistical test power analysis 
methods, application examples, experimental design, effect amplitude, sample size, 
number of trials and other influencing factors in ERP research, with a view to 
providing researchers with design and / or pre-registration of research protocols and 
other stages that require calculation and reporting of statistical power in event-related 
potential studies to provide a reference. 
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